AI测评迎来巨大的变化!颠覆传统榜单!1亿融资+大厂混战
你有没有过这种困惑?打开手机刷AI榜单,一会儿看到GPT排第一,一会儿又说Claude更厉害,中国的DeepSeek也时不时冲上前三。这些排名到底靠谱吗?其实行业里早就有个公开的秘密,不少模型是靠“刷分作弊”才登顶的,静态题库里的题目早就被塞进训练数据里,模型
你有没有过这种困惑?打开手机刷AI榜单,一会儿看到GPT排第一,一会儿又说Claude更厉害,中国的DeepSeek也时不时冲上前三。这些排名到底靠谱吗?其实行业里早就有个公开的秘密,不少模型是靠“刷分作弊”才登顶的,静态题库里的题目早就被塞进训练数据里,模型
最近,美国 CBS《60 分钟》节目播出了对 Anthropic CEO Dario Amodei 的专访,里面有一句话在全球科技圈炸裂开来——“未来一到五年内,AI 将消灭 50% 的初级白领岗位,失业率可能升至 10%~20%。”
上周华尔街日报的大会上,OpenAI的CFO一句求政府给AI芯片兜底,直接给美国AI圈来了记断子绝孙脚。六大科技巨头一夜蒸发近5000亿美金,这波操作比过山车还刺激。
上周,来自 Anthropic 的研究人员表示,他们最近观察到“首个由 AI 协同操作的网络攻击行动”,在一次针对数十个目标的攻击活动中,他们检测到有黑客使用该公司的 Claude AI 工具参与行动。不过,外部研究人员对 Anthropic 这一发现的评价要
前几天和朋友吃饭,他兴奋地说:“现在的AI也太猛了吧,随便问什么都能答!”
一个盯行业趋势,一个挖用户痛点7×24小时全网扫描,蓝海市场无处遁形必备工具:perplexity高级数据分析版NotebookLM
让 agent 制定一个计划,并将其拆分为详细的检查清单。把检查清单写入你的代码仓库 (暂时的)让它逐项完成清单任务,并在完成后勾选。删除清单。
随着 AI Agent 的快速发展,一个新的名词「上下文工程」进入大家的视野,很多人会好奇它与「提示词工程」有什么区别,是又在造新的概念吗?我们今天就来聊聊,究竟什么是「上下文工程」,以及它是如何工作的。
claude code ma claudecode kiro 2025-11-12 20:21 1
钉钉团队研发的深度研究系统Dingtalk-DeepResearch有重大突破,在国际权威评测DeepResearch Bench测试中以48.49分位列全球第二、国内第一,超越OpenAI、Claude等主流系统。
每个AI都拿着十万美元实盘,用着同样的prompt,在NVDA、TSLA、MSFT等科技股里博弈。
啊????不是,是我起猛了吗😧智谱的GLM-4.6居然排名到编程世界第一去了???和GPT、Claude一个位次去了起因是看到LMSYS的一个帖子(图2️⃣说他们推出了一个叫Code Arena新评测我一开始还没反应过来,Code Arena?什么东西?点进
2025年11月12日,agno 正式发布了 v2.2.11 版本。本次更新带来了多项新功能、性能改进以及重要的 bug 修复,下面我们将详细介绍这一版本的变化。
claude p agno paralleltools工具集 2025-11-14 06:29 3
AI投资步入第二赛季,从海外加密货币到美股。由RockAlpha平台主导的美股赛场,为AI模型设置了多个风格迥异的策略赛道,让多个AI模型进行实盘交易;以及由港大AI-Trader项目开辟的A股赛场,其规则深度贴合本土市场,专攻上证50指数成分股。这两大实验首
OpenAI 今天发布了 GPT-5.1,这是对其 8 月份发布的旗舰模型的更新。OpenAI 称其为 GPT-5 的“升级版”,使“ChatGPT 更智能,对话也更愉快。同时,OpenAI 在用户聊天界面增加了更多“个性 / 语气”选项,如 Friendly
11月12日,国际权威评测DeepResearch Bench最新公布了最新测试结果:一项由中国科技企业研发的深度研究系统“Dingtalk-DeepResearch” 以48.49位列全球第二,仅次于获得49.71分的gemini-2.5-pro-DeepR
人工智能越聪明,对齐问题就越紧迫。根据Anthropic 的 Claude Sonnet 4.5 系统卡( 基本上是人工智能模型架构和功能的概述 ), 该公司这次面临着一个有趣的挑战:如何防止人工智能察觉到自己正在接受测试。
实践是最好的学习方式。为了深入理解 LangGraph 和模型上下文协议(MCP)服务器的生态,我们来从零开始构建一个 CLI 编码代理。我们的目标是,抛开 Claude Code 那些花里胡哨的功能,看看最基础的编码代理能做到什么程度。
claude code mcp 编码 claudecode 2025-10-31 18:11 4
研究人员发现了一种诱骗Claude上传私人数据到攻击者账户的方法,通过间接提示词注入实现攻击。Anthropic公司表示已在文档中说明了这种风险,并提出了解决方案:用户需要密切监控屏幕操作。
首先,不管是大洋彼岸的OpenAI、Anthropic,还是国内的通义千问、智谱、月之暗面,他们推出的大模型或开源实现,都提供或偏好Pytorch框架。
需要注意,这个功能背后用的是 Git 的 worktrees 技术,相当于给每个 AI 都复制了一份代码库,分别在不同的代码分支干活。